XX. mendeko Euskararen Corpus estatistikoa

Testuingurua

Erran nahi baita eta juntagailua eta batean, batera, bategatik (edo berdin hasten den beste edozein luzapen deklinatu) elkarrekin agertzen diren orrialdeak aurkitzeko.

Eta, orduan bai, 40.000 emaitza inguru ematen ditu makinak, eta lehen begiratu batean bederen, zerrendan lehenbizi agertzen diren ehundaka orriak euskaraz daude.

Dudarik gabe, horrela ere ihes egingo diote makinari euskaraz idatzitako orrialde askok.

Adibidez, orain irakurtzen ari zaren paragrafo honetan ez dira agertzen berba fatidiko horiek.

Beraz, ahapaldi hau makinaren irismenetik kanpo geratuko litzateke.

Nolanahi ere testu luze samarra tokatuz gero, normalean azalduko dira hitzok.

Era berean, euskaraz ez den zerbaitetan idatziriko testuetan ere azal litezke seinalatutako hitzak.

Esate baterako, Los cachorros de ETA se baten en retirada dioen gaztelaniazko testua markatuta geratzen da.

Kontrolerako neurri gehigarriak diseina daitezke: gure algoritmoarekin identifikatzen ez diren euskarazko orri bakanak harrapatzeko batetik, eta deskuidoan galbahetik igaro diren erdarazkoak aurkitu eta deskartatzeko.

Orrazketa gehigarri pare bat egitea da koxka, baina prozedura erraza da.

Oinarrian, tximino zibernetikoari nahikoa zaio hau bezalako algoritmo sinple bat, Inteneten dauden euskarazko orriak detektatzeko:

+ eta + baté

Eta, beraz, hain erraza bada, zergatik ez dute aukera hori sartu zibertximinoa diseinatu duten ingeniariek?

Letoniera edo islandiera detektatzeko antzeko sistemak asmatuko zituzten seguruenik.

Hitz klabe pare bat detektatu, edo letra sekuentzia jakin bat, edo hizki zehatz bat (Ñ, gaztelaniaren kasuan...)

Euskarak ez du besteek baino lan gehiago eskatuko, normalean.